如何建语料库_如何建立自己的语料库?

谢邀。按照语料的语种,语料库可以分成单语语料库、双语语料库和多语语料库。

单语与双语或多语语料库之间的区别在于语料库本身所包含的语言数量。凡语料仅为单一语言的语料库属于单语语料库;语料为两种语言的则称为双语语料库(若两种语言的文本互相是对方的译文,则该语料库属于双语平行语料库);三种及三种以上的为多语语料库(若一个原文文本有多个版本的译文文本,亦可做成一对多语料库)。

不知道您说的是哪一种语料库,在此分别说一下这三种语料库的建库方法。

一、建立单语语料库

建立单语语料库只需将您收集到的单语材料集中存储在txt文本文档中即可,您可以使用单语语料库分析研究工具AntConc(免费,可以直接在官网

二、建立双语平行语料库

语料对齐工具有Tmxmall在线对齐(网页版对齐工具,免安装)、Abbyy Aligner(需下载安装)和Trados自带的对齐工具WinAlign(需下载安装)等。

我平时主要使用Tmxmall在线对齐(智能对齐算法可以自动对齐原文译文,减少人工干预,对齐效率高,需要收取一定的费用,建议购买对齐套餐更划算),建库方法如下:

将互为译文的语言材料(原文与译文存放于两个文件中或原文与译文以上下/左右形式对照的方式存放于单个文件中均可)导入Tmxmall在线对齐进行对齐,将对齐后的tmx文件下载到本地即可。使用CAT软件时,将该tmx格式的记忆库导入CAT软件,碰到类似的语句,会自动显示匹配结果,有利于积累译者的记忆库,提高翻译效率。

三、建立一对多语料库

如果需要建立中文文本对应不同语种译本的一对多语料库,可将每个语种的译本分别与中文文本进行对齐(具体方法参见二、建立双语平行语料库)导出为excel格式的文档,并将excel文档中的中文文本和每个英文译本分别复制粘贴到txt文档中,即可在中国传媒大学平行语料检索工具CUC_ParaConc(免费)中进行检索和研究。

如果需要建立中文文本对应多个英文译本的一对多语料库用于对比不同的英文翻译,可先将每个英文译本分别与中文文本进行对齐(具体方法参见二、建立双语平行语料库)导出为excel格式的文档,并将excel文档中的中文文本和每个英文译本分别复制粘贴到txt文档中,即可在中国传媒大学平行语料检索工具CUC_ParaConc中进行检索和研究。

希望能够帮到你呀~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值